Arrepentimiento minimax-óptimo en juegos de Markov parcialmente observables
Algoritmo optimista logra arrepentimiento minimax-óptimo en POMG. Complejidad O(√T) con dependencia de la dimensión de Eluder.
Algoritmo optimista logra arrepentimiento minimax-óptimo en POMG. Complejidad O(√T) con dependencia de la dimensión de Eluder.